进入2024,我们可以看到AI图像生成应用的主流基本上分成了三大派,Midjourney,DallE 3与 Stable Diffusion为代表的各种开源diffuser模型,其他还有一些诸如Google的imagen,或者ideogram使用量相对少很多就不一一介绍。Midjourney,DallE 3与 Stable Diffusion之中前两者都是闭源的在线服务,国内使用有重重障碍,而Stable Diffusion是开源的应用,不仅催生出许多国内的AI绘画应用服务,还可以让我们自行下载源代码与模型,搭建在自己的计算机上运行,因此Stable Diffusion也拥有丰富多样的各种社区模型功能插件,有着最多的可能性,最大的扩展能力,也最能够结合生产力流程帮助我们完成很多创意工作。Stable Diffusion提出的潜空间扩散影响深远,其他的diffuser模型或多或少都参考借鉴了Stable Diffusion的设计,结构比较相似,能通过一些界面工具整合在一起使用,这里面甚至包括一些用于声音,视频,三维模型的diffuser模型,例如DeepFloyd IF,Kandinsky,aMUSEd等等。
Midjourney V6
Midjourney是AI绘图当之无愧的顶流,AIGC时代的第一个商业奇迹,11个人做出一年2亿美金的营收。Midjourney使用专有模型,并未开源,V5.2及之前的版本设计结构可能与Stable Diffusion相差不大。但是V6是一个完全重新训练的模型,推测是和DallE 3 一样通过LLM大语言模型进行图文对齐来训练的,所以现在V6对提示词更敏感,能理解一定的空间关系,能够更准确的画出文字(目前仅限于英语)——这更像DallE 3,这是模型理解人类意图能力的巨大进步,也许相较于DallE 3还稍弱一点(毕竟DallE 3有GPT4V,那是目前最好的大模型),但是用于商业广告,艺术创作上,Midjourney V6越来越像一个技艺精湛的人类助手。而且V6被优化了图像细节的表现能力,有人甚至做出了将一片牛肉的细节不断放大直到细胞层级的视频。请注意,V6 目前还处于alpha阶段,缺少 V5.2 模型中的一些功能,包括左右平衡和缩小,但创始人大卫霍尔兹表示这些功能将在 V6 的后续更新中实现(Midjourney 使用时可以通过-v 参数切换模型版本,除了V5,V6,还可以切换二次元动漫风格模型nijijourney)。
Midjourney作为许多人眼中最卓越、质量最出色、也最具创意的 AI 艺术生成器,V6的更新表明其从未停止技术探索和模型改进的脚步,而且在市场上也始终保持着领先地位。
准确的英文文字表现:马克笔书写的"Hello World!"

更真实的细节以及对物体之间关系更准确的理解:

V5 与V6的对比
V5:

V6:

Dall-E 3
DALL-E 3是2023年10月openai发布的 AI 图像生成器的最新版本,DALL-E 3也是微软 Bing Creator AI 套件的一部分,提供免费额度供公众使用。它不是DALL-E 2的简单升级,而是基于GPT4 的语言理解与视觉理解能力建筑的新一代生成式图像AI,与目前能力最强的LLM对齐,这是目前最能理解人类意图的生成式图像AI。
DALL-E 3 可以在图像中生成可读的文本,而不是随机的乱码。它还可以准确地描绘历史人物和著名名人。DALL-E 3 还可以通过 ChatGPT 界面用对话形式不断对图像进行改进,是的,就跟你要求设计师改稿一样。
例如要求DALL-E 3 罗列50样家居日常用品:

然后,让一个人带着它们去冲浪:

还可以把人物换成老奶奶:

我想这大概是跟飞屋环游记里的老爷爷最搭的老伴儿了吧!
Stable Diffusion的源代码是python程序,需要通过python程序语言来使用,这当然非常不方便,对设计师来说难度也太大了,所以开源社区为Stable Diffusion开发了各种各样的界面工具,我为大家简单介绍现在其中使用最广泛的三个界面:AUTOMATIC1111 stable-diffusion-webui (以下简称WebUI),ComfyUI和Fooocus。
这些工具都可以自由地在各个Stable Diffusion模型版本中切换,当前宣布的最新版本是Stable Diffusion 3,但是还没公开发布。
WebUI是最早的Stable Diffusion界面工具,诞生于2022年8月,也可能是目前应用最广泛的Stable Diffusion界面工具,github上获得了百万星标。它是一个基于传统网页应用界面的工具,各种新的AIGC相关的模型,功能,一般都会开发出基于WebUI的扩展插件。但是WebUI基本的界面工具功能是比较简单的,想要用好需要安装各种扩展组件,而这些组件的配置参数,功能开关,以及图像生成的相关参数设置散落在各个页面,真正想要在工作流使用起来还是比较麻烦。

ComfyUI诞生于2023年1月,它是一个基于节点工作流的Stable Diffusion界面工具,其操作有些类似3D软件的节点材质工具或者集合节点工具,对大部分人来说有点陌生。但是节点化的好处是将AI绘画的工作流程一个一个环节拆分出来,每个环节都可以加入自定义的操作,组合成完成特定任务的工作流,AI绘画的生成能力得以漫无边际的扩展,而且开发节点比为WebUI开发插件要容易得多,随着越来越多的用户开始转向ComfyUI,开源社区也围绕ComfyUI开发了大量定制节点,从功能数量上都已经超过了WebUI的扩展插件,甚至出现了例如将设计好的特定ComfyUI工作流转换为简单web应用的节点,结合绘画软件Krita进行绘画涂鸦实时生成AI绘画结果的节点,大大地拓展了AI绘画作为生产力工具应用的边界。


Fooocus
Fooocus诞生于2023年8月,是Controlnet作者张吕敏( Github用户名lllyasviel )的新项目,lllyasviel 在SDXL发布之后,大部分精力都用在了Fooocus上,以ComfyUI为底层,但采用了与WebUI类似但更简洁易用的界面,基于SDXL模型进行了大量的优化,例如使用了GPT2模型作为默认的提示词优化器,功能使用上参照Midjourney,能够用简单的提示词生成媲美Midjourney V5的图像。
code/s?__biz=Mzg3MzE4MjMwMA==&mid=2247484283&idx=1&sn=6d18a0bd951735dea69b432233593d7e&chksm=cee2a648f9952f5ea5c13fcea9276d5a687790b9cc20813fc2ab6aceb11450026df47e533c16#rd